# This is a sample Python script.

# Press Shift+F10 to execute it or replace it with your code.
# Press Double Shift to search everywhere for classes, files, tool windows, actions, and settings.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# See PyCharm help at https://www.jetbrains.com/help/pycharm/
data = pd.read_csv('holidays_events.csv', sep=';')
#查看特征空值信息，以及数据类型
print(data.info(verbose=True))
#获取特征的均值，标准差，最大最小值，以及分位数
print(data.describe())
#输出数据集前n个样本，默认n=20
print(data.head(n=20))

# 重复值检查 duplicated() 返回布尔型数据，告知重复值的位置
# 注意：当两条数据各项完全重复时才会认定为重复值，默认执行从前向后的重复值查找，所以重复值标记会在后重复数据中显示为TRUE
print(data.duplicated())

# 重复值数据的个数
print("重复值数据量统计：")
print(data.duplicated().sum())

# 查找是否存在缺失值，并统计缺失数量
print("缺失值数据量：")
print(data.isnull().sum())

print("偏度系数：",data["date"].skew())
print("峰度系数：",data["date"].kurtosis())

plt.figure()
sns.distplot(data["date"])
plt.show()

